High-dimensional data arises in numerous applications, and the rapidly developing field of geometric deep learning seeks to develop neural network architectures to analyze such data in non-Euclidean domains, such as graphs and manifolds. Recent work by Z. Wang, L. Ruiz, and A. Ribeiro has introduced a method for constructing manifold neural networks using the spectral decomposition of the Laplace Beltrami operator. Moreover, in this work, the authors provide a numerical scheme for implementing such neural networks when the manifold is unknown and one only has access to finitely many sample points. The authors show that this scheme, which relies upon building a data-driven graph, converges to the continuum limit as the number of sample points tends to infinity. Here, we build upon this result by establishing a rate of convergence that depends on the intrinsic dimension of the manifold but is independent of the ambient dimension. We also discuss how the rate of convergence depends on the depth of the network and the number of filters used in each layer.
translated by 谷歌翻译
散射变换是一种基于小波的多层转换,最初是作为卷积神经网络(CNN)的模型引入的,它在我们对这些网络稳定性和不变性属性的理解中发挥了基础作用。随后,人们普遍兴趣将CNN的成功扩展到具有非欧盟结构的数据集,例如图形和歧管,从而导致了几何深度学习的新兴领域。为了提高我们对这个新领域中使用的体系结构的理解,几篇论文提出了对非欧几里得数据结构(如无方向的图形和紧凑的Riemannian歧管)的散射转换的概括。在本文中,我们介绍了一个通用的统一模型,用于测量空间上的几何散射。我们提出的框架包括以前的几何散射作品作为特殊情况,但也适用于更通用的设置,例如有向图,签名图和带边界的歧管。我们提出了一个新标准,该标准可以识别哪些有用表示应该不变的组,并表明该标准足以确保散射变换具有理想的稳定性和不变性属性。此外,我们考虑从随机采样未知歧管获得的有限度量空间。我们提出了两种构造数据驱动图的方法,在该图上相关的图形散射转换近似于基础歧管上的散射变换。此外,我们使用基于扩散图的方法来证明这些近似值之一的收敛速率的定量估计值,因为样品点的数量趋向于无穷大。最后,我们在球形图像,有向图和高维单细胞数据上展示了方法的实用性。
translated by 谷歌翻译
歧管散射变换是用于在Riemannian歧管上定义的数据的深度提取器。它是将类似卷积神经网络的操作员扩展到一般流形的第一个例子之一。该模型的初始工作主要集中在其理论稳定性和不变性属性上,但没有为其数值实现提供方法,除非具有预定义的网格的二维表面。在这项工作中,我们根据扩散图的理论提出实用方案,以实现在自然主义系统(例如单细胞遗传学)中产生的流形散射转换,其中数据是一个高度点云,该云是模仿躺在上面的高维点云。低维歧管。我们证明我们的方法对于信号分类和多种分类任务有效。
translated by 谷歌翻译
This work explores the zero-shot compositional learning ability of large pre-trained vision-language models(VLMs) within the prompt-based learning framework and propose a model (\textit{PromptCompVL}) to solve the compositonal zero-shot learning (CZSL) problem. \textit{PromptCompVL} makes two design choices: first, it uses a soft-prompting instead of hard-prompting to inject learnable parameters to reprogram VLMs for compositional learning. Second, to address the compositional challenge, it uses the soft-embedding layer to learn primitive concepts in different combinations. By combining both soft-embedding and soft-prompting, \textit{PromptCompVL} achieves state-of-the-art performance on the MIT-States dataset. Furthermore, our proposed model achieves consistent improvement compared to other CLIP-based methods which shows the effectiveness of the proposed prompting strategies for CZSL.
translated by 谷歌翻译
Scene text images have different shapes and are subjected to various distortions, e.g. perspective distortions. To handle these challenges, the state-of-the-art methods rely on a rectification network, which is connected to the text recognition network. They form a linear pipeline which uses text rectification on all input images, even for images that can be recognized without it. Undoubtedly, the rectification network improves the overall text recognition performance. However, in some cases, the rectification network generates unnecessary distortions on images, resulting in incorrect predictions in images that would have otherwise been correct without it. In order to alleviate the unnecessary distortions, the portmanteauing of features is proposed. The portmanteau feature, inspired by the portmanteau word, is a feature containing information from both the original text image and the rectified image. To generate the portmanteau feature, a non-linear input pipeline with a block matrix initialization is presented. In this work, the transformer is chosen as the recognition network due to its utilization of attention and inherent parallelism, which can effectively handle the portmanteau feature. The proposed method is examined on 6 benchmarks and compared with 13 state-of-the-art methods. The experimental results show that the proposed method outperforms the state-of-the-art methods on various of the benchmarks.
translated by 谷歌翻译
受数字孪生系统的启发,开发了一个新型的实时数字双框架,以增强机器人对地形条件的感知。基于相同的物理模型和运动控制,这项工作利用了与真实机器人同步的模拟数字双重同步,以捕获和提取两个系统之间的差异信息,这两个系统提供了多个物理数量的高维线索,以表示代表差异建模和现实世界。柔软的,非刚性的地形会导致腿部运动中常见的失败,因此,视觉感知完全不足以估计地形的这种物理特性。我们使用了数字双重来开发可折叠性的估计,这通过动态步行过程中的物理互动来解决此问题。真实机器人及其数字双重双重测量之间的感觉测量的差异用作用于地形可折叠性分析的基于学习的算法的输入。尽管仅在模拟中受过培训,但学习的模型可以在模拟和现实世界中成功执行可折叠性估计。我们对结果的评估表明,对不同方案和数字双重的优势的概括,可在地面条件下可靠地检测到细微差别。
translated by 谷歌翻译
这项研究受到人类行为的启发,提议使用探测策略,并将其整合到遍布性分析框架中,以解决未知的粗糙地形上的安全导航。我们的框架将可折叠信息整合到我们现有的遍历性分析中,因为仅视力和几何信息可能会被不可预测的非刚性地形(例如柔软的土壤,灌木丛或水坑)误导。通过新的遍历性分析框架,我们的机器人对不可预测的地形进行了更全面的评估,这对于其在室外环境中的安全至关重要。该管道首先使用RGB-D摄像头确定地形的几何和语义性能,并在可疑地形上探测位置。使用力传感器对这些区域进行探测,以确定机器人在其上面时崩溃的风险。该风险被称为可折叠度度量,该指标估计了不可预测的区域的地面可折叠性。此后,将可折叠性度量以及几何和语义空间数据结合在一起,并分析以产生全局和局部穿术网格图。这些遍历性网格地图告诉机器人是否可以安全地跨越地图的不同区域。然后使用网格图来生成机器人的最佳路径,以安全地导航其目标。在模拟和现实世界实验中,我们的方法已在四足动物的机器人上成功验证。
translated by 谷歌翻译
我们介绍了队列舒适模型,这是一个新框架,用于预测新乘员如何看待其热环境。队列舒适模型利用从样本人群中收集的历史数据,这些数据具有一些潜在的偏好相似性,以预测新居民的热偏好反应。我们的框架能够利用可用的背景信息,例如物理特征和一次性的登机调查(对生活尺度的满意度,高度敏感的人尺度,五个个性特征)以及新乘员以及生理和环境传感器的测量值与热偏好响应配对。我们在两个公开可用的数据集中实施了框架,其中包含来自55人的纵向数据,其中包括6,000多个单独的热舒适调查。我们观察到,使用背景信息的队列舒适模型几乎没有变化的热偏好预测性能,但没有使用历史数据。另一方面,使用队列舒适模型的每个数据集占用人群的一半和三分之一的占用人群,而目标居民的历史数据较少,同类舒适模型将其热偏好预测增加了8〜 \%,平均为5〜 \%与对整个乘员人群进行训练的通用模型相比,某些乘员最多可容纳36点\%和46〜%。该框架以数据和站点不可知的方式呈现,其不同的组件很容易根据乘员和建筑物的数据可用性定制。队列舒适模型可能是迈向个性化的重要一步,而无需为每个新乘员开发个性化模型。
translated by 谷歌翻译
张量分解因其在多维数据中捕获潜在因素的固有能力而获得了越来越多的兴趣,该数据具有许多应用程序,例如推荐系统和电子健康记录(EHR)挖掘。已经提出了Parafac2及其变体来解决不规则的张量,其中一种张量模式不对齐,例如,EHR中推荐系统或患者的不同用户可能具有不同的记录。 PARAFAC2已成功应用于EHRS,用于提取有意义的医学概念(表型)。尽管有最近的进步,但当前模型的可预测性和可解释性并不令人满意,这限制了其用于下游分析的效用。在本文中,我们提出了多个多任务学习的多个监督不规则张量分解。多个多个可以灵活地包含静态(例如,院内死亡率预测)和连续或动态(例如,通风的需求)任务。通过通过下游预测任务监督张量分解并利用来自多个相关预测任务的信息,Multipar不仅可以产生更有意义的表型,而且可以为下游任务提供更好的预测性能。我们在两个现实世界中的EHR数据集上进行了广泛的实验,以证明Multipar是可扩展的,并且与现有的最新方法相比,具有更有意义的亚组和更强的预测性能,可以更好地张紧张量。
translated by 谷歌翻译
卷积神经网络(CNN)已成功应用于胸部X射线(CXR)图像。此外,已证明注释的边界框可以改善CNN的可解释性,以定位异常。但是,只有几个相对较小的CXR数据集可用,并且收集它们非常昂贵。在放射科医生的临床工作流程期间,可以计时地,可以以非侵入性的方式收集眼睛跟踪(ET)数据。我们使用从放射科医生记录的ET数据,同时要求CXR报告训练CNN。我们通过将它们与关键字的命令相关联,并使用它们来监督异常的本地化,从而从ET数据中提取摘要。我们表明,此方法改善了模型的解释性,而不会影响其图像级分类。
translated by 谷歌翻译